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Концепция системы распознавания речи 
на основе чтения по губам 


В статье рассматривается проблема построения автоматической системы чтения с губ на основе 
интеллектуального анализа видеоизображений лица диктора. Разрабатываемая система предназначена для 
обучения пользователя навыкам правильной артикуляции для упрощения визуального восприятия 
украинской речи людьми с нарушениями слуха и заключается в контроле правильности произнесения 
обучаемым известных слов. 


Введение 


В настоящее время системы автоматического чтения с губ в большинстве своем 
используются для дополнения звукового информационного канала визуальным, что 
необходимо для повышения качества распознавания речи в условиях шума или по- 
сторонних источников звука. Проведенный анализ современного состояния в задаче 
автоматизации чтения с губ показал, что достигаемые результаты при использовании 
только визуальной информации являются не вполне удовлетворительными. Объясняется 
это ограниченностью орального алфавита (алфавита визем — зрительного аналога 
фонем), что не дает возможности полного описания фонетической структуры языка 
соответствующими визуальными образами. Практические данные о возможности 
чтения с губ подготовленными людьми объясняются возможностью применения зна- 
ния контекста и смыслового комбинирования, которые обеспечивают компенсацию 
недостатков сокращенного алфавита визем. При автоматизации процесса чтения с 
губ такую компенсацию можно получить с использованием автоматического семан- 
тического анализа, что в настоящее время не является вполне осуществимым. Поэтому 
в качестве основной, практически достижимой цели можно выделить создание ком- 
пьютерной информационной технологии для обучения правильной артикуляции при 
произнесении украинской речи. Разрабатываемая система предназначена для обучения 
пользователя навыкам правильной артикуляции для упрощения визуального восприятия 
украинской речи людьми с нарушениями слуха и заключается в контроле правиль- 
ности произнесения обучаемым известных слов. 


Формирование словаря визем 


Согласно фонетике украинскому языку присущи 6 гласных и 32 согласных фонемы: 


[], [и], [е], ГУ], [0], [а]; 
[6], [0], [д], д’ 1, [т], г’ ], [г], к], [$], [ж], [3], [3'], (и, [е}, [е' 1, [7], [х], [дж], 
[дз], [дз], [9], д, [хе 1, [в], [И], [м], 8}, [в° 29}, [т ], [2], [р' ]. 


Здесь *' — означает мягкий звук *. 
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Сопоставляя фонетический состав украинского языка с исследованиями В.И. Бель- 
тюкова для русского языка [1] и учитывая фонетические сходства украинского и русского 
языков, можно сформировать следующий оральный алфавит украинских звуков (визем). 


Таблица 1 — Оральный алфавит украинских звуков (визем), полученный по ана- 
логии с алфавитом В.И. Бельтюкова 
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Предварительный анализ возможности автоматической классификации образов 
такого алфавита показал необходимость его существенного сокращения в направлении 


использования базовых или опорных визем [1], [2]. В приведенной табл. | виземы 
начиная с девятой являются плохо различимыми даже человеком с его значительно 
более мощным зрительным аппаратом. Это во многом связано с тем, что процесс 
воспроизведения соответствующих им звуков в значительной мере скрыт внутри ро- 
товой полости, что существенно усложняет их зрительное восприятие и тем более 
автоматическое распознавание на основе полученного цифрового изображения. 

Поэтому для дальнейших исследований в направлении разработки системы 
автоматического чтения с губ можно принять следующий рабочий алфавит визем, за 
основу которого приняты опорные виземы (табл. 2). 


Таблица 2 — Рабочий алфавит визем 


1 2 3 4 5 6 7 8 9 
а о у е 1 п ф ш $ 
и |: ж 
м Ч 


Для сравнения с более широким алфавитом (табл. 1) в табл. 3 приведены также 
визуальные образы визем для элементов алфавита, не вошедших в рабочий алфавит 


(табл. 2). 
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Таблица 3 — Элементы расширенного алфавита, не вошедшие в рабочий алфавит 


9 10 И 12 13 14 15 
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Как видно из табл. 3, приведенные в ней элементы алфавита визуально трудно- 


различимы с элементами рабочего алфавита, что может существенно затруднить рас- 
познавание произнесенного звука по изображению соответствующей конфигурации 
губ. Так виземы 10 и 12 визуально трудноотличимы от 8, а виземы 9, 11, 13 и 15 
легко спутать как между собой, так и с виземой 5 принятого рабочего алфавита. Знак 
«$» в рабочем алфавите визем означает нормальное положение, молчание, паузу или 
любую другую визему, не входящую в этот алфавит. Таким образом, при распозна- 
вании предпочтение отдается виземам 1 - 8, а в случае отказа от распознавания — не 
распознана ни одна из восьми — данной конфигурации приписывается значение 9, ко- 
торое также может генерироваться в случае промежуточного положения между двумя 
и более виземами. 


Последовательный анализ видеоданных 


Для реализации распознавания артикуляции при произнесении речи последова- 
тельный анализ видеоданных содержит следующие основные этапы: 
— поиск области лица — наиболее перспективным является подход, основанный на 
использовании: интегрального изображения, каскадного механизма классификации, 
метода АдаВооз{ для обучения классификации; 
— поиск области губ — может быть решен аналогично поиску лица, а также с исполь- 
зованием активных или гибких контуров; 
— распознавание визем — для решения возможно использование многоклассового 
АдаВоо5метода или объединения двухклассовых классификаторов на основе принципа 
дихотомии, анализа формы контуров губ, алгебраического подхода, главных компонент. 
Основная сложность при решении последней задачи заключается в существен- 
ном влиянии на изображения области губ таких плохо контролируемых факторов, 
как условия освещения и индивидуальные особенности лиц. Для их успешного учета 
при распознавании необходимо иметь достаточно обширную выборку изображений, 
отражающую возможные влияния приведенных факторов. В противном случае необхо- 
димо вводить соответствующие ограничения на условия эксплуатации системы обучения. 
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Обнаружение и принцип дихотомии 


Построению практически любой системы автоматического распознавания объек- 
тов предшествует этап их обнаружения, за которым выполняются дальнейшие действия, 
включающие извлечение признаков, применение классификаторов и принятие реше- 
ния о принадлежности. Это особенно актуально для систем распознавания зрительных 
образов, когда необходимо работать с двумерными данными, представляющими собой 
отображение трехмерных объектов. В этом случае предварительный этап обнаруже- 
ния позволяет как повысить качество извлечения признаков, то есть инвариантность 
к факторам смещения и масштаба, так и скорость выполнения этой операции за счет 
применения только к выделенной части изображения, как правило, значительно мень- 
шей, чем само изображение. Кроме этого, в ряде практических задач само обнаружение 
объекта может являться конечной целью анализа изображения, что справедливо для 
различного рода систем видеонаблюдения. 

При достижении высоких показателей работы систем обнаружения объектов, 
соответствующие методы обучения распознаванию образов могут быть успешно при- 
менены и к решению задачи классификации. Это означает переход от задачи клас- 
сификации двух классов (объект / не объект) к мультиклассовой задаче. В случае 
если множество распознаваемых классов известно и жестко задано, что справедливо 
для рассматриваемой задачи распознавания визем, то переход от решения двухклас- 
совой к решению мультиклассовой задачи классификации осуществим на основе 
принципа дихотомии — представлении многоклассового классификатора в виде по- 
следовательности двухклассовых. При этом для достижения высоких показателей 
быстродействия первые двухклассовые классификаторы достаточно обучить на клас- 
сификацию объектов, соответствующих классам с наибольшими априорными вероят- 
ностями. В задаче автоматического чтения с губ получить оценки априорных вероятностей 
классов визем, составляющих рабочий алфавит, можно путем статистического опре- 
деления частот встречаемости каждой виземы в вербальной информации заданной 
предметной области. 


Накопление и состав обучающей базы данных 


Исходя из целей обучающей системы — выработка правильной артикуляции 
при произнесении украинской речи — для разработки алгоритма распознавания арти- 
куляции и оценки правильного произношения необходима репрезентативная выборка 
примеров правильного произношения фонем украинского языка в виде изображений 
отдельных визуальных частиц речи согласно используемому оральному алфавиту. 
Получить такую базу данных достаточно сложно ввиду отсутствия необходимого коли- 
чества людей уже владеющих правильной артикуляцией и средств проверки их навыков. 
С другой стороны, как отмечается в ряде работ, в том числе в работе Ф.Ф. Рау [3], при 
обучении чтению с губ людей педагогам не ставится задача использовать утрирован- 
ную ярко выраженную артикуляцию. Основными требованиями к произношению в 
процессе обучения являются замедленный темп речи, подчеркивание ритмико-инто- 
национной стороны речи, соблюдение правил орфоэпии. Исходя из этого при формирова- 
нии обучающей базы данных алфавита визем можно использовать следующую методику. 
Испытуемому предлагается изображение правильного произнесения виземы, после 
чего он повторяет это произнесение. Результат контролируется оператором и сохра- 
няется в виде изображения. Такая последовательность повторяется для каждой виземы 
принятого алфавита и в различных условиях съемки, таких, как освещение и расстояние 
до камеры. В результате формируется база данных визем, учитывающая индивиду- 
альные особенности артикуляционного аппарата каждого испытуемого, возможные 
изменения освещения лица и его масштаба. 
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Ограничения на скорость обработки видеопотока 
и отслеживание лиц 


По данным исследований в области систем распознавания речевой информации 
по аудиоданным временной интервал, в котором фонемы можно приблизительно 
считать стационарными, составляет около 10 миллисекунд. Отсюда скорость захвата 
и обработки речевой (как аудио, так и видео) информации должна в лучшем случае 
составлять не менее 100 информационных квантов в секунду. Для неспециализирован- 
ных устройств захвата видео этот показатель может достигать до 30 кадров в секунду, а 
выполняемая обработка может снизить скорость потока данных еще больше. Таким 
образом, используемые методы обработки видеоданных должны быть вычислительно 
не сложными, позволяющими обрабатывать данные в потоке со скоростью не ниже 
25 кадров в секунду. Наиболее вычислительно сложным методом в рассматриваемой 
задаче является метод обнаружения лица, входными данными для которого является 
всё изображение [4], [5]. В отличие от него, например, для метода распознавания 
входными данными является небольшая область изображения, признанная областью 
губ. Для ускорения работы метода обнаружения лица наряду с каскадным методом 
классификации возможно использование механизма слежения за лицом (асе шасК1те). 
Согласно этому механизму положение лица в потоке обрабатываемых кадров ищется 
один раз — на первом кадре, после этого его положение лишь корректируется путем 
поиска лица в некоторой, небольшой по сравнению со всем кадром, области, вокруг 
найденного положения на предыдущем кадре (рис. 1). Размеры этой области должны 
соответствовать допустимым изменениям положения лица в кадре с учетом скорости 
его возможного перемещения и частоты захвата нового кадра. В результате исполь- 
зования механизма слежения общая скорость обработки видеоданных возрастает. 


Очередной кадр 
видеопотока 


Лицо было 
найдено на 
предыдущем кадре 


Поиск лица по 
Поиск по г Ц 
окрестности всему кадру 


Дальнейшая 
обработка 


Рендеринг 


Рисунок 1 — Схема механизма слежения за лицом 
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Каскадная классификация 


Процесс классификации с применением каскада классификаторов заключается 
в отсеве как можно большего числа ложных изображений объекта на каждом этапе 
каскада при условии заданной максимальной ошибки пропуска цели (рис. 2). 

На каждом этапе итоговый классификатор может быть сформирован согласно 
методу обучения АдаВооз [6] или любому другому методу обучения классифика- 
ции, на основе заданных ограничений на ошибку ложного обнаружения и ошибку 
пропуска цели. При этом следует учитывать, что, как правило, число кандидатов на 
изображение объекта много больше, чем истинных изображений объектов. Общее 
число кандидатов при анализе изображения размером \/хН и М возможных мас- 
штабов объекта равно: 


М- М-1 


--а >.м. => (м -)-(н-ь,)=У (У - жк). (Н-в.к'), 


1=0 1=0 
где К — масштабный коэффициент, определяющий отношение между соседними мас- 
штабами. Откуда для изображения размером 640*480 и 10 масштабов объекта, число 
кандидатов М = 3000000 ‚ среди которых правильным может являться только 1. Отсюда 
следует, что для правильного анализа изображений такого размера необходимо, что- 
бы после прохождения всего каскада классификаторов ошибка ложного обнаружения 
должна быть порядка 10° — 1077 при достаточно низкой ошибке пропуска цели, для 
которой приемлемыми значениями являются значения меньшие 0,05. 
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унок 2 — Схема каскадной классификации 


Схема обучения по АдаВоо$ 


Схема обучения по АдаВооз( представляется достаточно мощным инструмен- 
том для решения задачи распознавания, и в сочетании с использованием элементарных 
(или простых) классификаторов в виде прямоугольных свойств, является достаточно 
удобной для использования в области автоматического анализа изображений, поиска 
объектов на изображении, распознавания изображений. 
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Согласно методу АдаВооз [4], на каждом этапе обучения отбирается элементар- 
ный классификатор, дающий минимальную ошибку на текущей базе данных. После 
этого обучающая база изображений перевзвешивается таким образом, что веса правильно 
классифицированных изображений уменьшаются, а веса ошибочно классифицируе- 
мых экземпляров увеличиваются. Таким образом, на следующем витке обучения поиск 
наилучшего элементарного классификатора будет в значительной степени зависеть 
от результатов работы предыдущих отобранных классификаторов, а новый найденный 
лучший элементарный классификатор будет в большей степени направлен на клас- 
сификацию плохо разделенных изображений объекта и фона на предыдущих этапах. 

Поиск лучшего элементарного классификатора на каждом этапе представляет 
вычислительно очень сложную задачу. Это объясняется, во-первых, необходимостью 
использовать достаточно обширную базу данных изображений объекта и фона для 
их наиболее полного признакового описания и, следовательно, возможности надеж- 
ного разделения. Во-вторых, большим количеством самих элементарных классификаторов, 
для каждого из которых необходимо по имеющейся взвешенной базе данных опреде- 
лить соответствующую ему ошибку классификации. Совокупность этих двух особен- 
ностей приводит к выводу о том, что для отбора наилучшего признака необходим 
более эффективный метод, чем полный перебор. Как показали проведенные предва- 
рительные исследования, приемлемой скорости обучения можно достигнуть на основе 
поиска признаков на каждом этапе с применением комбинации метода статистичес- 
ких испытаний и метода градиентного спуска. 


Выводы 


В статье приводится концепция создания экспериментальной технологии рас- 
познавания речи по губам, которая явилась результатом всестороннего анализа сов- 
ременного состояния проблемы автоматического чтения с губ. В ходе проведенной 
декомпозиции задачи выделены три основных этапа анализа входных видеоданных: 
поиск лица на изображении, поиск области губ, идентификация конфигурации губ. 
Рассмотрены основные сложности, возникающие при построении системы, а также 
пути их возможного разрешения. На основе проведенного анализа литературных 
источников сформирован рабочий алфавит визуальных образов речи (визем) и выра- 
ботаны основные принципы построения системы автоматического чтения с губ. Согласно 
выработанной концепции дальнейшими направлениями исследований могут быть 
решения задач трех выделенных этапов обработки входных данных. Их успешное 
разрешение позволит создать экспериментальную технологию автоматического чте- 
ния по губам, которая позволит улучшить параметры систем звукового распознавания 
речи в условиях шума или нескольких дикторов, а также разработать прикладную 
программу обучения правильной артикуляции для облегчения понимания речи по 
губам людьми с нарушениями слуха. 
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К.В. Муриан 

Концепщя системи розшзнавання мови на основ! читання по губах 

У стати розглядаеться проблема побудови автоматично! системи читання з губ на основ! 1нтелектуального 
анал!зу вдеозображення обличчя диктора. Розроблювана система призначена для навчання користувача 
навиками правильно! артикуляци для спрощення в1зуального сприйняття укра{нсько! мови людьми з 
порушеннями слуху 1 полягае у контрол! правильност! вимови научуваних в1домих слив. 


К.Г. Мигуят 

Сопсере о{ Зреесв Весосош@оп Вазе4 оп Глр Веад те 

ТБе агисе 15 деущфе4 10 Ше сопсерё оЁ 4еуе!ортепе оЁ зреесБ гесоэт!оп ехрегилета {есбпо]огу оп Фе 
Баз1$ оЁ Пр геафтэ. Те сопсерё \БлсЬ Ваз Бееп 4еуе]ореа 1$ а гези!{ оЁ оуегмувейитс апа[уз15 оГа тодеги 
ме\м оп Фе ргоМет о{ аютайс Пр геадте. ш ассог4апсе у регюгте4 десотроз! оп оЁ пе соттоп 
ф(азк фе ЮПо\лпх @гее ргшс1ра| %асез оЁ апа1уз15 оРепигу у14ео даа Бауе Бееп Чеегиатед: зеагсь Юг фе 
асе оп Фе ппазе, деесНоп оЁ Прз агеа, 14епиЯсайоп о Прз сопйгигайоп. ТБе таш сотр|сайоп$ оё фе 
зузбет Ч4еу@ортеп{ ап те#о4$ о# пеш ргобае зош@оп аге этуеп ш Фе агибе. Науше апа[уте4 Фе 
зоигсез фе могкше а[рБаБе! оё у15йа] райеги$ оЁ зреесВ (у1зет) ап таш рипс1р]ез оЁ сгеайпт® фе зует 
ОР амотайс Пр геадте Бауе Бееп 4еуе]оре4. Ассог4то 10 фе \уогке4 оп{ сопсерЁ Ви ег ФгесНоп$ оЁ 
гезеагсВез сап Бе соппеце4 №0 зо[ушз оЁ Штее зе]есе4 зйасез оЁ ргосеззте оЁ шриё шогтайоп. Трет 
зиссез$ В] зо!уше \Ш аПо\ сгеайп» ехрегитепиа] {есбпоюжу оЁ амютайс Пр геафте \фась Ш таке # 
роззЫе ю пиргоуе ргодисНуЙу оЁ зреесВ тесост оп зузетз Базе оп аа ю шЮптаНоп сВаппе! ш Фе 
соп оп оЁ по15е ог зеуега[ зреаКегз, ап4 ао ю 4еуе]ор а 1еаглтз аррИсаНоп оЁ соггесё агасШайоп ю 
таКе зреесЬ сотргевепз1оп Базе4 оп Пр геадте Бу 4еаРреор[е ог реор!е ул Ба4 Веагис сазлег. 
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